Para hacer predicciones sobre series económicas y testear teorías sobre su comportamiento, necesitamos hacer unos supuestos sobre su comportamiento:
Sea \(x_t\) un vector de variables económicas de tamaño \(m \times 1\) generadas en el tiempo \(t\). Estas variables pueden estar correlacionadas contemporáneamente y a través del tiempo. La colección \(\{ x_t, -\infty < t < \infty \}\) es llamada una secuencia (vectorial) aleatoria.
Un data set económico es un conjunto finito , e.g. \(\left\{x_1,\dots,x_n\right\}\), de esta secuencia infinita.
Definimos el proceso generador de datos (PGD) para estas variables como la función de probabilidad conjunta bajo la cual esta secuencia es generada, representando todas las influencias resaltadas.
Gracias al hecho que el tiempo siempre fluye en la misma dirección, eventos pasados pueden ser tratados como dados para la explicación de eventos futuros. Esto es llamado condicionamiento secuencial y es fundamental para hacer predicciones.
Asumamos, por simplicidad, que los datos tienen una función de distribución continua. Entonces, el PGD es representado por la densidad condicional
\[\begin{equation}\label{eq:PGD} D_t\left(x_{t} | \chi_{t} \right) \end{equation}\]
donde \(\chi_t=\sigma(x_{t-1},x_{t-2},x_{t-3},\dots)\). Esta notación es una simplificación para el \(\sigma\)-algebra representando el conocimiento del pasado del sistema. \(\chi_t\) es el \(\sigma\)-algebra más pequeño bajo el cual las variables aleatorias \(x_{t-j}\) son medibles para todo \(j \geq 0\)
En la ecuación la densidad \(D_t\) depende de \(t\), porque no asumimos estacionariedad, en particular debemos hacer concesiones para características como variaciones estacionales, cambios de régimen, cambios regulatorios, entre otros.
Estos conceptos los veremos en futuras clases.
Un modelo econométrico dinámico es una familia de funciones de los datos que pretenden imitar aspectos del PGD, ya sea \(D_t\) o funciones derivadas de \(D_t\) como los momentos.
Formalmente, un modelo es una familia de funciones
\[\begin{equation} \left\{ M \left(x_t,x_{t-1},x_{t-2}.\dots,d_t;\psi\right), \psi \in \Psi \right\}, \Psi \subseteq \mathbb{R}^p \end{equation}\]
Los modelos dependen de una colección de parámetros, de cantidad \(p\), denominados por \(\psi\), y \(\Psi\) son los valores admisibles de los parámetros (espacio parámetrico). El vector \(d_t\) son variables tratadas como no-estocásticas, que tratan de capturar cambios en el PGD a través del tiempo.
Por lo general, se considera uno de los siguientes modelos: \[\begin{align} X_t = T_t + C_t + S_t + I_t \\ X_t = T_t \times C_t \times S_t \times I_t \end{align}\] donde \(X_t\) es la series observada, \(T_t\) es la tendencia de largo plazo, \(C_t\) es el ciclo económico, \(S_t\) es el componente estacional, e \(I_t\) las variaciones residuales.
Sea \(x_t\) una observación aleatoria de una serie de tiempo. Definimos el símbolo \(L\) como:
\[\begin{equation} L x_t = x_{t-1} \end{equation}\]
\(L\) es lo que en matemáticas es conocido como un operador. No es un parámetro o un número pero puede ser tratado como tal para operaciones algebraicas, e.g. \(L^2 x_t = L(L x_t) = L x_{t-1} = x_{t-2}\), en general \(L^n x_t = x_{t-n}\)
En adición, la expresión
\[\begin{equation} \alpha(L) = \alpha_0 + \alpha_1 L + \alpha_2 L^2 + \dots + \alpha_p L^p \end{equation}\]
es llamado el polinomio de orden p del operador de rezagos.
Y si lo aplicamos a un serie de tiempo, generamos una media móvil ponderada de la serie, i.e.
\[\begin{equation} \alpha(L)x_t = \alpha_0 + \alpha_1 x_{t-1} + \alpha_2 x_{t-2} + \dots + \alpha_p x_{t-p} \end{equation}\]
Otro operador usado es
\[\begin{equation} \Delta = 1 - L \end{equation}\]
el operador de diferencia. \(\Delta x_t = x_t - x_{t-1}\) es el cambio en \(x\) en el periodo \(t\).
Es importante anotar la diferencia de notación entre
\[\begin{equation} \Delta_n = 1 - L^n \end{equation}\]
que el operador de la diferencia de \(n\) periodos, y
\[\begin{equation} \Delta^n = (1 - L)^n \end{equation}\]
el operador de la diferencia de orden \(n\), e.g. \(\Delta_2 x_t = x_t - x_{t-2}\) y \(\Delta^2 x_t= \Delta x_t - \Delta x_{t-1} = (x_t - x_{t-1}) - (x_{t-1} - x_{t-2})\)
Finalmente, definimos el proceso de innovación . Sea \(\{\varepsilon, -\infty < t < \infty \}\) un proceso estocástico (o secuencia aleatoria) y sea \(\mathcal{E}_{t-1}\) el \(\sigma\)-algebra de eventos predecibles cuando el pasado de \(\varepsilon_t\) es conocido.
Y asumimos
\[\begin{align} E(\varepsilon_t | \mathcal{E}_{t-1}) & = 0 \\ E(\varepsilon^2_t | \mathcal{E}_{t-1}) & = \sigma^2 \end{align}\]
Este es un proceso estacionario en el sentido débil, y no auto-correlacionado. Este tipo de proceso se conoce también como ruido blanco
Si la secuencia aleatoria \(\{x_t\}\) tiene media \(E[x_t]=\mu_t\) la autocovarianza esta dada por: \[\begin{equation} \begin{matrix} cov[x_{t_1},x_{t_2}] & = & E[(x_{t_1}-\mu_{t_1})(x_{t_2}-\mu_{t_2})] \\ & = & E[(x_{t_1}x_{t_2})] - \mu_{t_1}\mu_{t_2} \end{matrix} \end{equation}\]
\[\begin{equation} \begin{matrix} E[(x_{t_1}-\mu_{t_1})(x_{t_2}-\mu_{t_2})] = E[(x_{t_1}x_{t_2} - x_{t_1}\mu_{t_2} - \mu_{t_1}x_{t_2} + \mu_{t_1}\mu_{t_2})] \\ = E[x_{t_1}x_{t_2}] - E[x_{t_1}\mu_{t_2}] - E[\mu_{t_1}x_{t_2}] + E[\mu_{t_1}\mu_{t_2}] \\ = E[x_{t_1}x_{t_2}] - E[x_{t_1}]\mu_{t_2} - \mu_{t_1}E[x_{t_2}] + \mu_{t_1}\mu_{t_2} \\ = E[x_{t_1}x_{t_2}] - \mu_{t_1}\mu_{t_2} - \mu_{t_1}\mu_{t_2} + \mu_{t_1}\mu_{t_2} \\ = E[x_{t_1}x_{t_2}] - \mu_{t_1}\mu_{t_2} \end{matrix} \end{equation}\]
Ahora, definimos la auto-correlación como
\[\begin{equation} \rho_j = \frac{\gamma_j}{\gamma_0} \end{equation}\]
La ventaja de usar la auto-correlación en vez de la auto-covarianza es que la auto-correlación siempre va a estar entre -1 y 1, dado que la covarianza siempre es igual o menor que la varianza.
Las auto-covarianzas y auto-correlaciones expuestas anteriormente son los valores poblacionales, estas pueden ser estimadas en una muestra de tamaño \(T\) de la siguiente manera: \[\begin{align} \hat{\gamma_j} = & \frac{1}{T} \sum^T_{t=j+1} (x_t - \bar{x}_{j+1:T})(x_{t-j} - \bar{x}_{1:T-j}) \\ \hat{\rho_j} = & \frac{\hat{\gamma_j}}{\widehat{var(x_t)}} \end{align}\]
Para la correcta estimación de los modelos necesitamos dos supuestos del comportamiento del PGD, primero los definiremos en plabras simples y luego los definiremos formalmente:
Estacionariedad débil: Una secuencia aleatoria \(\{x_t\}\) es estacionaria débil (o estacionaria en covarianza) si la media, varianza y la secuencia de autocovarianzas.
La autocovarianza de orden \(j\) se define como \(\gamma_j = cov(x_{t},x_{t-j})\)} de orden \(j\), para \(j>0\) son independientes de \(t\)
Estacionariedad Estricta:
Una secuencia aleatoria \(\{x_t\}\) es estacionaria estricta si para todo \(k>0\) la distribución conjunta de todas las colecciones \((x_t,x_{t+1},x_{t+2},\dots,x_{t+k})\) no depende de \(t\)
Estacionariedad estricta implica estacionariedad débil, pero lo contrario no siempre aplica.
En el caso especial de la distribución normal, estacionariedad débil si implica estacionariedad estricta.
Si \(\{x_t\}\) es una secuencia estacionaria y ergódica, y \(E(x_1)\) existe, entonces \(\bar{x_n} \rightarrow E(x_1)\) con probabilidad 1.
Donde ${x_n} = _{t=0}^n x_t $
Wold (1938) demostró que si el proceso con media cero \(x_t\) es estacionario en sentido débil, este se puede representar como
\[\begin{equation} x_t = \sum_{j=0}^{\infty} \theta_j \varepsilon_{t-j} + \upsilon_t \end{equation}\]
donde \(\theta_0 = 1\), \(\sum_{j=0}^{\infty} \theta_j < \infty\), \(\varepsilon_t\) cumple con las propiedas del procesos de innovación previamente definidas, \(E[\upsilon_t \varepsilon_{t-j}] = 0\), y constantes \(\alpha_0,\alpha_1,\alpha_2,\dots\) tal que \(Var(\sum_{j=0}^{\infty}\alpha_j \upsilon_t)=0\)
Si definimos \(\upsilon_t\) como una variable con media cero \(z\), tal que \(z\) no depende de \(t\), cualquier combinación que cumpla con \(\sum_{j=0}^{\infty} \alpha_i = 0\) satisface la definición anterior.
En general, si \(\upsilon_t = - \sum_{j=0}^{\infty} \frac{\alpha_j}{\alpha_o}\upsilon_{t-j}\) cumple con la condición. Este es un proceso deterministico, ya que puede ser predicho perfectamente un periodo antes.
En economía existen diferentes series que no cumplen con el supuesto de estacionariedad, e.g. el producto interno bruto. Por lo tanto es importante incluir (algunos) procesos de este tipo en nuestros análisis.
consideremos el siguiente proceso con tendencia y $|| < 1 $,
\[\begin{equation} x_t = \delta + \alpha t + \phi x_{t-1} + \varepsilon_t \end{equation}\]
Si estimamos la media de este proceso vemos que depende del tiempo,
\[\begin{align*} E[x_t] & = E[\delta + \alpha t + \phi x_{t-1} + \varepsilon_t] \end{align*}\]
reemplazando obtenemos,
\[\begin{align*} E[x_t] & = E[\delta] + E[\alpha t] + E[\phi x_{t-1}] + E[\varepsilon_t] \\ & = \delta + \alpha t + \phi E[\delta + \alpha (t-1) + \phi x_{t-2} + \varepsilon_{t-1}] \\ & \vdots \\ & = \sum_{i=0}^n \phi^i (\delta + \alpha (t-i)) \end{align*}\]
dado que \(|\phi| < 1\) y \(n \rightarrow \infty\)
por lo tanto la media sería,
\[\begin{equation} E[x_t] = \frac{\delta + \alpha(\phi (t + 1) - t)}{(1-\phi)^2} \end{equation}\]
y dado que depende de \(t\) no sería estacionaria bajo nuestra definición de estacionariedad.
Ahora veamos el caso del proceso definido como,
\[\begin{equation}\label{eq:rw} x_t = x_{t-1} + \varepsilon_t \end{equation}\]
Este proceso es conocido como “random walk” o paseo aleatorio.
Miremos la varianza de este proceso, asumiendo \(E[x_1]=0\)
\[\begin{align} Var(x_t) & = E[(x_t - E[x_t])^2] \\ & = E[(x_{t-1} + \varepsilon_t)^2] \\ & = E[(x_{t-1})^2] + 2E[x_{t-1}\varepsilon_t] + E[\varepsilon_t^2] \\ & = E[x_{t-1}^2] + 0 + E[\varepsilon_t^2] \end{align}\]
\[\begin{align} E[\varepsilon_t x_{t-j}] & = E[E(\varepsilon_t x_{t-j} | \mathcal{E}_{t-1})] \\ & = E[E(\varepsilon_t | \mathcal{E}_{t-1}) x_{t-j}] \\ & = 0 \end{align}\]
para todo \(j>0\).
Si seguimos iterando hacia atrás obtenemos
\[\begin{align} Var(x_t) & = E[( x_{t-2} + \varepsilon_{t-1})^2] + E[\varepsilon_t^2] \\ & =E[x_{t-2}^2] + E[\varepsilon_{t-1}^2] + E[\varepsilon_t^2] \\ \end{align}\]
Repitiendo este proceso, obtenemos
\[\begin{align} Var(x_t) & = E[x_{t-n}^2] + E[\varepsilon_{t-n}^2 ] + \dots + E[\varepsilon_{t-1}^2] + E[\varepsilon_t^2] \\ \end{align}\]
Asumiendo \(Var(x_1)= \sigma^2\),
\[\begin{align} Var(x_t) & = \sigma^2 + \sigma^2 + \dots + \sigma^2 + \sigma^2 \\ & = t \sigma^2 \end{align}\]
Por lo tanto el proceso es no estacionario.
Finalmente, la auto-correlación esta dada por,
\[\begin{align} \rho_{j,t} & = \frac{\gamma_{j,t}}{\sqrt{\gamma_{0,t}}\sqrt{\gamma_{0,t-j}}} \\ & = \frac{(t-j)\sigma^2}{\sqrt{t \sigma^2} \sqrt{(t -j)\sigma^2} } \\ & = \frac{\sqrt{t-j}}{\sqrt{t}} \end{align}\]
Sin embargo, podemos hacer uso del operador de diferencias para convertir esta serie en un proceso estacionario,
\[\begin{equation} w_t = \Delta x_t = x_t - x_{t-1} = \varepsilon_t \end{equation}\]
donde \(w_t\) es estacionario.
Acá pasamos de \(x_t\) a \(w_t\) pero siempre podemos hacer el proceso contrario en caso tal que deseemos conocer los valores de la serie original
\[\begin{align} x_t & = w_t + x_{t-1} \\ & = w_t + w_{t-1} + x_{t-2} \\ & \vdots \\ & = w_t + w_{t-1} + w_{t-2} + w_{t-3} + \dots \end{align}\]
por lo tanto el proceso \(x_t\) se obtiene sumando o integrando el proceso \(w_t\)